心脏周围环境的脂肪沉积与诸如动脉粥样硬化,颈动脉僵硬,冠状动脉钙化,心房颤动等许多健康风险因素相关。这些存款与肥胖有所不相关,这加强了其直接分割以进一步定量。然而,由于所需的人类工作量和医生和技术人员的后续高成本,这些脂肪的手动分割尚未在临床实践中被广泛部署。在这项工作中,我们提出了一种统一的方法,用于自主分割和两种类型的心脏脂肪量化。分段脂肪被称为心外膜和纵隔,并通过心包彼此分开。很多努力都致力于实现最小的用户干预。所提出的方法主要包括注册和分类算法以执行所需的分割。我们比较了多种分类算法对此任务的性能,包括神经网络,概率模型和决策树算法。所提出的方法的实验结果表明,心外膜和纵隔脂肪的平均准确性为98.5%(如果特征正常化,则为99.5%),其平均阳性率为98.0%。平均而言,骰子相似度指数等于97.6%。
translated by 谷歌翻译
对心脏周围环境的脂肪库的定量是评估与多种疾病相关的健康风险因素的准确程序。但是,由于人为的工作量,这种类型的评估并未在临床实践中广泛使用。这项工作提出了一种用于自动分割心脏脂肪垫的新技术。该技术基于将分类算法应用于心脏CT图像的分割。此外,我们广泛评估了几种算法在此任务上的性能,并讨论了提供了更好的预测模型。实验结果表明,心外膜和纵隔脂肪分类的平均准确性为98.4%,平均正面速率为96.2%。平均而言,关于分割的患者和地面真相的骰子相似性指数等于96.8%。因此,迄今为止,我们的技术已经获得了心脏脂肪自动分割的最准确结果。
translated by 谷歌翻译
本文介绍了针对非负矩阵分解的新的乘法更新,并使用$ \ beta $ -Divergence和两个因素之一的稀疏正则化(例如,激活矩阵)。众所周知,需要控制另一个因素(字典矩阵)的规范,以避免使用不良的公式。标准实践包括限制字典的列具有单位规范,这导致了非平凡的优化问题。我们的方法利用原始问题对等效规模不变的目标函数的优化进行了重新处理。从那里,我们得出了块状大量最小化算法,这些算法可为$ \ ell_ {1} $ - 正则化或更“激进的” log-regularization提供简单的乘法更新。与其他最先进的方法相反,我们的算法是通用的,因为它们可以应用于任何$ \ beta $ -Divergence(即任何$ \ beta $的任何值),并且它们具有融合保证。我们使用各种数据集报告了与现有的启发式和拉格朗日方法的数值比较:面部图像,音频谱图,高光谱数据和歌曲播放计数。我们表明,我们的方法获得了收敛时类似质量的溶液(相似的目标值),但CPU时间显着减少。
translated by 谷歌翻译
安全字段中的数据标签通常是嘈杂,有限或偏向于人口子集的。结果,诸如准确性,精度和召回指标之类的普遍评估方法,或从标记数据集中计算的性能曲线的分析对机器学习(ML)模型的现实性能没有足够的信心。这减慢了该领域的机器学习的采用。在当今的行业中,我们依靠域专业知识和冗长的手动评估来建立此信心,然后再运送新的安全应用程序模型。在本文中,我们介绍了Firenze,这是一种使用域专业知识对ML模型的性能进行比较评估的新型框架,并编码为称为标记的可扩展功能。我们表明,在称为感兴趣的区域的样本中计算和组合的标记可以提供对其现实世界表演的强大估计。至关重要的是,我们使用统计假设检验来确保观察到的差异,因此从我们的框架中得出的结论 - 比仅噪声可观察到的更为突出。使用模拟和两个现实世界数据集用于恶意软件和域名声誉检测,我们说明了方法的有效性,局限性和见解。综上所述,我们建议Firenze作为研究人员,领域专家和企业主混合团队的快速,可解释和协作模型开发和评估的资源。
translated by 谷歌翻译
毫米波(mmwave)通信系统依靠狭窄的光束来实现足够的接收信号功率。调整这些光束通常与大型训练开销有关,这对于高度移动的应用特别重要。直观地,由于最佳光束选择可以从对通信终端的位置的了解中受益,因此人们对利用位置数据的利益越来越多,以减少MMWave光束预测中的开销。但是,先前的工作仅使用通常不能准确代表现实世界测量的合成数据研究了这个问题。在本文中,我们使用现实世界中的大规模数据集研究了与位置辅助的光束预测,以洞悉准确地可以在实践中节省多少开销。此外,我们分析了哪种机器学习算法的性能最佳,哪些因素降低了实际数据中的推理性能以及哪些机器学习指标在捕获实际的通信系统性能方面更有意义。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
Large speech emotion recognition datasets are hard to obtain, and small datasets may contain biases. Deep-net-based classifiers, in turn, are prone to exploit those biases and find shortcuts such as speaker characteristics. These shortcuts usually harm a model's ability to generalize. To address this challenge, we propose a gradient-based adversary learning framework that learns a speech emotion recognition task while normalizing speaker characteristics from the feature representation. We demonstrate the efficacy of our method on both speaker-independent and speaker-dependent settings and obtain new state-of-the-art results on the challenging IEMOCAP dataset.
translated by 谷歌翻译
近似贝叶斯推理方法提供强大的工具套件,用于查找近似的难治性后部分布。然而,机器学习应用程序通常涉及选择动作,即在贝叶斯设置中 - 仅通过其对预期实用程序的贡献取决于后部分布。因此,损失校准的近似推理方法的成长工作体也寻求开发对实用功能的影响敏感的后近似。在这里,我们引入损失校准期望传播(丢失-EP),期望传播的损失校准变体。该方法类似于标准EP,其附加因素“倾斜”后部朝向更高实用的决策。我们将应用程序在二元实用程序函数下向高斯进程分类进行应用于虚假负和假阳性错误的不对称惩罚,并展示该不对称性如何对近似捕获的信息“有用”具有巨大的后果。
translated by 谷歌翻译
如何找到Google地图未索引的地点?我们提出了一种直观的方法和框架来定位基于其独特的空间特征的地方。该方法使用机器视觉方法中的卫星和街道视图图像来对位置进行分类。如果我们可以对位置进行分类,我们只需要在我们感兴趣的领域重复非重叠位置。我们评估在亚利桑那州立大学校园找到Parkour Spots中的拟议系统。结果非常令人满意,发现了25多个新的跑息点,其阳性率高于60%。
translated by 谷歌翻译
张量模型在许多领域中起着越来越重要的作用,特别是在机器学习中。在几种应用中,例如社区检测,主题建模和高斯混合物学习,必须估算噪声张量的低级别信号。因此,了解该信号的估计器的基本限制不可避免地要求研究随机张量。最近,在大维限制中,该主题取得了实质性进展。然而,其中一些最重要的结果(尤其是对突然的相变(相对于信噪比)的精确表征),该表现控制着对称等级的最大可能性(ML)估计器的性能 - 具有高斯噪声的模型 - 基于平均场自旋玻璃理论得出,非专家不容易访问。在这项工作中,我们依靠标准但强大的工具开发出一种截然不同,更基本的方法,这是由随机矩阵理论的多年进步带来的。关键思想是研究由给定随机张量的收缩引起的随机矩阵的光谱。我们展示了如何访问随机张量本身的光谱属性。对于上述排名衡量模型,我们的技术产生了迄今未知的固定点方程,其解决方案与第三阶情况下的相变阈值高于相变阈值的ML估计器的渐近性能。数值验证提供了证据,表明订单4和5相同,导致我们猜想,对于任何顺序,我们的定点方程等于已知的ML估计性能的表征,这些表现通过依靠旋转玻璃而获得。此外,我们的方法阐明了ML问题景观的某些特性,可以扩展到其他模型,例如不对称和非高斯。
translated by 谷歌翻译